Databricks 基本架構圖如下:
基本觀念需要了解的有:
Accounts and workspaces
一個 workspace 就是一個 Databricks 的部署,而一個部署可以有多個帳號,也可以只有一個帳號。
一個 Databricks 帳號可以有多個 workspace,而一個 workspace 可以有多個帳號。而帳號可以透過 Unity Catalog 來管理,這樣就可以在一個帳號底下,管理多個 workspace 的使用者權限。另外,帳單和支援也是在帳號層級。
Billing: Databricks units (DBUs)
Databricks 會根據 VM 的規格,來計算每個小時的價格。而這個價格,就是 Databricks units (DBUs)。而這個價格,就是 Databricks units (DBUs)。而這個價格,就是 Databricks units (DBUs)。
Workspace
Workspace 就是一個環境,可以存取所有的 Databricks 資產。而這個環境,會把所有的物件 (notebooks, libraries, dashboards, and experiments) 分類到不同的資料夾,並且提供存取資料物件和運算資源的權限。
Notebook
Notebook 就是一個網頁應用程式,可以讓使用者建立資料科學和機器學習的工作流程,並且可以包含可執行的命令、視覺化和敘述性文字。
Library
將機器學習專案的程式碼打包成一個 Library,並且可以在 Notebook 或是 Job 執行時使用。可以在 Databricks rumtimes 同時放入多個 libraries,也可以自行新增。
Repo
可以將 Repo 當成是一個資料夾,裡面的內容會同步到遠端的 Git 儲存庫,而這個 Git 儲存庫,可以提供專案的來源和版本控制。Databricks Repos 整合了 Git,可以提供專案的來源和版本控制。
Databricks File System (DBFS)
Databricks 自家的檔案系統
Database
傳統的 relational database 以及 NoSQL
Table
透過 Apache Spark SQL and Apache Spark APIs 存取
Delta table
預設情形下,所有都是 Delta table,底層是 Delta Lake,可以提供 ACID transactions、scalable metadata handling、and unifies streaming and batch data processing。
Databricks Runtime
Databricks Runtime for Machine Learning
Jobs
Delta Live Tables
Data engineering
Data analytics
Reference: https://docs.databricks.com/en/getting-started/overview.html